Introducción

El presente trabajo se presenta como una continuación y profundización del Trabajo Práctico 01, que se puede encontrar en el siguiente enlace: https://github.com/mlincemarino/mu124tp01 (ver al final que ande en enlace).

basemipieza <- read.csv2("01-Data/MIPIEZA_BASE-FINAL-03.csv", encoding = "UTF-8", header = TRUE) #Acá leemos el csv. 

Repasando, y a modo de resumen, en el ejercicio anterior se realizaron las siguientes acciones sobre la base:

  • Limpiar la base para seleccionar solo aquellas variables de interés.
  • Agrupar las observaciones por provincia y convertir los nombres de los códigos para facilitar su interpretación.
  • Agrupar las observaciones por región y analizar su distribución en torno a los grupos de tratamiento y grupos de control.

Pregunta a responder para el Trabajo Práctico 02

Siguiendo el análisis realizado en el Trabajo Práctico 01, y con el fin de poder empezar a visualizar geográficamente la información, responderemos a la siguiente pregunta de investigación: ¿existe un balance entre la cantidad de mujeres inscriptas en Mi Pieza y la cantidad de hogares que residen en barrios populares por provincia?. Responderemos esta misma pregunta luego con la base específica de mujeres que forman parte de la muestra para la evaluación de impacto realizada.

Importación de la nueva base de datos

Para responder a la pregunta, empezaremos por importar la base de datos de barrios populares del Registro Nacional de Barrios Populares. La misma fue descargada del siguiente enlance: https://datosabiertos.desarrollosocial.gob.ar/dataset/registro-nacional-de-barrios-populares el día 17 de septiembre de 2023.

baserenabap <- read.csv2("01-Data/2022-07-13_renabap_base.csv", encoding = "UTF-8", header = TRUE, sep = ",") #Acá leemos el csv. 

Visualicemos la base.

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(htmltools)
library(rmarkdown)
paged_table(baserenabap) #Visualizamos el archivo con la función "paged_table". 

Como podemos ver, tenemos 5687 filas y 77 columnas / campos.

En base al trabajo anterior, y considerando que nos importa entender la cantidad de barrios que hay por provincia, haremos un trabajo sobre la base que nos permita quedarnos con las variable que más nos importan.

baserenabap_sel <- select(baserenabap, c("provincia", "cantidad_viviendas_aproximadas", "cantidad_familias_aproximada", "superficie_m2", "personas_genero_masc", "personas_genero_fem", "personas_genero_otrx")) #Seleccionamos las variables de interés.

Tenemos la nueva base con la misma cantidad de observaciones y solo 7 variables. Vamos a proceder a agruparlas por provincia:

#Agrupamos por provincia y agregamos el dato de la cantidad de observaciones por cada una. 
baserenabap_prov <- baserenabap_sel %>%
  group_by(provincia) %>%
  summarise(cantidad_prov=n())

Veamos cómo se ve esta nueva base:

knitr::kable(baserenabap_prov, format = "pipe", table.attr = 'style="width:50%;"') #Usamos otra forma de visualizar a partir de la función "kable", que en este caso resulta más conveniente porque permite ver todos los valores en una misma página, lo que facilita la comparación. 
provincia cantidad_prov
Buenos Aires 1933
Catamarca 41
Chaco 401
Chubut 70
Ciudad Autónoma de Buenos Aires 50
Corrientes 200
Córdoba 281
Entre Ríos 212
Formosa 111
Jujuy 141
La Pampa 5
La Rioja 24
Mendoza 317
Misiones 375
Neuquén 102
Río Negro 208
Salta 233
San Juan 85
San Luis 30
Santa Cruz 22
Santa Fe 408
Santiago del Estero 93
Tierra del Fuego 47
Tucumán 298
  1. SE ESPERA QUE EN ESTA INSTANCIA SE INCORPORE A LOS TEMAS PROPUESTOS EN EL PRIMER MÓDULO (IMPORTACION, LIMPIEZA Y MANIPULACIÓN DE DATOS) LOS RELATIVOS A DATOS ESPACIALES ESPECIFICAMENTE. Para ello, además de documentar la importación de datos de interés a analizar y la etapa de descubrimento, limpieza y procesamiento de la información, se propone la incorporación de una fuente de datos de relevancia geográfica.

  2. SE ESPERA QUE GENEREN (AL MENOS):

  1. una visualización standard de los datos (esto sería, con geom_ de ggplot2 NO SIG. En este punto, es posible y valorable la utilización de geofacet como alternativa GEO); y

  2. una viz utilizando geom_sf como capa de la VIZ.